Atenção, este documento é uma versão de template usando dados hipotéticos que foram extraídos de base pública1.
Análise exploratória univariada é uma etapa essencial em um processo de análise de dados e consiste basicamente em, para cada uma das variáveis individualmente:
É por meio da análise exploratória univariada que são percebidos pontos importantes acerca da qualidade dos dados. É uma etapa realizada nas fases iniciais de uma análise de dados, mas que tem impacto em todo o processo, pois fornece uma visão geral de quais variáveis são mais críticas e devem ser utilizadas com cuidado nas etapas seguintes de análise (análise exploratória bivariada, testes de hipóteses e machine learning).
Para a base de dados em análise, as principais conclusões foram:
Não existem variáveis do tipo “data”, o que impede que sejam feitos alguns cálculos, como tempo que o colaborador esta no mesmo grade (isso pode ser um motivo para o mesmo continuar ou deixar a empresa).
A variável horas_contratadas não tem variação nos valores, ou seja, os valores apresentados na base de dados são constantes. O que se pode concluir é que todos os colaboradores tem a mesma carga horária.
A variável hora_extra apresenta apenas dois valores (“Yes” ou “No”), sendo indicado que para este tipo de caso, tenha uma variável que contabilize as horas extras efetuadas, pois o decisor de colaborador deixar ou continuar na empresa pode ser a partir de uma determinada quantidade de horas extras por mês. Saber este valor pode ajudar na gestão do turnover voluntário.
No caso da performance todos os colaboradores estão com notas 3 (Ótimo) ou 4 (Excelente), o que pode ser um problema para a gestão de consequências dado que dificulta a diferenciação entre os colaboradores. Isso pode sugerir a necessidade de melhorias no processo de avaliação de desempenho.
Não é possível determinar a quantidade de viagens por cada colaborador, sendo apresentado na base de dados as informações de forma categórica. O ideal é que exista um campo com a quantidade de viagens por mês, pois o decisor pode se dar a partir de uma quantidade de viagens.
Por fim, não existem dados históricos dos colaboradores, apenas um Snapshot (registro instantâneo) das informações.
Perceba a importância das conclusões acima. A partir da análise exploratória univariada é possível validar se os dados disponibilizados condizem com a realidade de gestão de pessoas da empresa ou se problemas nos processos internos de RH estão produzindo informações que não contribuem para a abordagem de people analytics.
Por exemplo, a conclusão sobre a variável performance está correta ou os dados foram selecionados de modo acidental com algum filtro? Para este exemplo, descobrir a causa raiz do “problema” contribui para a velocidade da entrega, pois os ajustes na extração de dados são realizados no início do projeto, ou seja, antes de realizar as análises de hipóteses e modelo preditivo.
Outro exemplo que para esta base de dados não foi encontrado, mas que geralmente ocorre em RH são as datas de entrada e saída de uma posição ou qualquer outro tipo de data. Isso acontece em função do time responsável pelo processo de cadastro nos sistemas usar datas generalistas (9/9/9999) para ganhar velocidade e atender ao SLA. Se este fosse o caso, a análise exploratória univariada permitiria o RH ter uma métrica (uma simples proporção de casos com datas generalistas) para acompanhar e negociar melhorias com seus fornecedores internos.
No decorrer deste relatório você entenderá como a análise exploratória univariada é conduzida.
É usual que em um projeto de análise de dados, diversas fontes de dados sejam utilizadas. Essa parte da análise foca em mostrar pontos importantes sobre cada arquivo disponibilizado, apresentando informações como a quantidade de variáveis (colunas) e de linhas.
Assim, temos uma forma de avaliar se os diversos dados recebidos (vários arquivos) estão de acordo com o esperado pelo cliente. Por exemplo, sabe-se que determinado arquivo com informações pessoais dos colaboradores é o que deveria ter a maior quantidade de linhas, mas a partir da análise exploratória univariada verifica-se que não é isto que ocorre. Assim, antes mesmo de continuar com outras análises já conseguimos identificar o problema.
Segue tabela com resumo das dimensões dos arquivos de dados disponibilizados:
| Arquivo | Linhas | Colunas |
|---|---|---|
| employee_attrition.csv | 1.470 | 35 |
As variáveis do tipo data precisam ser avaliadas de forma específica, pois carregam temporalidade. Dependendo da origem da data, a verificação se existem diversas datas repetidas pode sugerir algum problema com o sistema/processo responsável pelo preenchimento da informação.
Um exemplo é a data de admissão de um colaborador que por default o sistema pode adicionar 9/9/9999 que não faz sentido para a análise. Isso pode ocorrer por uma falha no processo e o resultado da análise exploratória univariada pode ser adicionar verificações no processo de forma que a informação seja confiável.
Nos dados recebidos não há campos do tipo data e por isso não apresentamos o resultado da análise exploratória univariada para este tipo de dado.
Na análise exploratória univariada das variáveis numéricas são observados pontos como média, mediana, quartis e dispersões (desvio padrão e amplitude).
Foram analisadas 15 variáveis numéricas, pertencentes a 1 arquivos de dados. Existem 0 variáveis com nome igual a de pelo menos mais uma variável.
De todas as 15 variáveis numéricas, 0 possuem dados faltantes, representando 0% do total de variáveis numéricas.
| Variavel | Arquivo | Faltante | Faltante (%) |
|---|---|---|---|
| anos_experiencia | employee_attrition.csv | 0 | 0 |
| cont_emplid | employee_attrition.csv | 0 | 0 |
| distancia | employee_attrition.csv | 0 | 0 |
| horas_contratadas | employee_attrition.csv | 0 | 0 |
| idade | employee_attrition.csv | 0 | 0 |
| percent_gest_conseq | employee_attrition.csv | 0 | 0 |
| qtd_emp_trabalhadas | employee_attrition.csv | 0 | 0 |
| salario | employee_attrition.csv | 0 | 0 |
| salario_diario | employee_attrition.csv | 0 | 0 |
| salario_hora | employee_attrition.csv | 0 | 0 |
| taxa_mensal | employee_attrition.csv | 0 | 0 |
| tempo_cargo | employee_attrition.csv | 0 | 0 |
| tempo_empresa | employee_attrition.csv | 0 | 0 |
| tempo_mesma_lideranca | employee_attrition.csv | 0 | 0 |
| tempo_ult_promocao | employee_attrition.csv | 0 | 0 |
| Variavel | Arquivo | Mínimo | Mediana | Máximo | Média | Desv. Pad. | Distribuição |
|---|---|---|---|---|---|---|---|
| anos_experiencia | employee_attrition.csv | 0 | 10,0 | 40 | 11,28 | 7,78 | |
| cont_emplid | employee_attrition.csv | 1 | 1,0 | 1 | 1,00 | 0,00 | |
| distancia | employee_attrition.csv | 1 | 7,0 | 29 | 9,19 | 8,11 | |
| horas_contratadas | employee_attrition.csv | 80 | 80,0 | 80 | 80,00 | 0,00 | |
| idade | employee_attrition.csv | 18 | 36,0 | 60 | 36,92 | 9,14 | |
| percent_gest_conseq | employee_attrition.csv | 11 | 14,0 | 25 | 15,21 | 3,66 | |
| qtd_emp_trabalhadas | employee_attrition.csv | 0 | 2,0 | 9 | 2,69 | 2,50 | |
| salario | employee_attrition.csv | 1.009 | 4.919,0 | 19.999 | 6.502,93 | 4.707,96 | |
| salario_diario | employee_attrition.csv | 102 | 802,0 | 1.499 | 802,49 | 403,51 | |
| salario_hora | employee_attrition.csv | 30 | 66,0 | 100 | 65,89 | 20,33 | |
| taxa_mensal | employee_attrition.csv | 2.094 | 14.235,5 | 26.999 | 14.313,10 | 7.117,79 | |
| tempo_cargo | employee_attrition.csv | 0 | 3,0 | 18 | 4,23 | 3,62 | |
| tempo_empresa | employee_attrition.csv | 0 | 5,0 | 40 | 7,01 | 6,13 | |
| tempo_mesma_lideranca | employee_attrition.csv | 0 | 3,0 | 17 | 4,12 | 3,57 | |
| tempo_ult_promocao | employee_attrition.csv | 0 | 1,0 | 15 | 2,19 | 3,22 |
A seguir são apresentados os histogramas (gráficos que mostram a distribuição dos dados) de cada uma das variáveis numéricas analisadas.
Para criar os boxplots a opção de manter os outliers pode ser TRUE (manter) or FALSE (excluir). Neste caso foi escolhida FALSE.
As variáveis categóricas são aquelas que definem qualitativamente as caraterísticas dos dados. Estas variáveis apresentam níveis finitos (também chamados de labels ou classes).
Como dado faltante para as variáveis categóricas foi assumido fator igual a NA. Todas as células vazias nos arquivos de dados (Excel, csv, etc) são classificadas dessa forma no momento da higienização dos dados. Células que apresentam mensagens de erro de cálculo do Excel também são tratadas como NA.
Segue detalhamento dos dados faltantes nas variáveis categóricas:
Veja a lista de variáveis categóricas e suas principais características:
| Variavel | Arquivos que contém a variável | Qtde de níveis | Nível mais frequente | Nível menos frequente | Distribuição |
|---|---|---|---|---|---|
| cargo | employee_attrition.csv | 9 | Sales Executive | Human Resources | |
| engajamento | employee_attrition.csv | 4 | 3 | 1 | |
| equilibrio_vida_profissional | employee_attrition.csv | 4 | 3 | 1 | |
| escolaridade | employee_attrition.csv | 5 | 3 | 5 | |
| estado_civil | employee_attrition.csv | 3 | Married | Divorced | |
| formacao | employee_attrition.csv | 6 | Life Sciences | Human Resources | |
| freq_viagem | employee_attrition.csv | 3 | Travel_Rarely | Non-Travel | |
| genero | employee_attrition.csv | 2 | Male | Female | |
| grade | employee_attrition.csv | 5 | 1 | 5 | |
| hora_extra | employee_attrition.csv | 2 | No | Yes | |
| maior_idade | employee_attrition.csv | 1 | Y | Y | |
| performance | employee_attrition.csv | 2 | 3 | 4 | |
| satisfacao_ambiente | employee_attrition.csv | 4 | 3 | 1 | |
| satisfacao_relacoes_trabalho | employee_attrition.csv | 4 | 3 | 1 | |
| satistacao_trabalho | employee_attrition.csv | 4 | 4 | 2 | |
| stockoption | employee_attrition.csv | 4 | 0 | 3 | |
| treinamentos_ultimo_ano | employee_attrition.csv | 7 | 2 | 0 | |
| turnover | employee_attrition.csv | 2 | No | Yes |
As variáveis que possuem mais de 100 níveis não foram mostradas nos gráficos acima. Estão nesta condição as seguintes variáveis: .
Variáveis chave servem para realizar relações entre as tabelas, também chamadas de “ID”, por serem variáveis de “identificação”.
As variáveis chave não são consideradas nas análises, pois a função delas é viabilizar a conexão entre as tabelas de dados.
Veja os detalhes mais relevantes dessas variáveis:
Variáveis do tipo texto são aquelas que não possuem um padrão no preenchimento. Pode representar descrições em campos abertos, nomes de cursos realizados, experiências profissionais, respostas em pesquisas, entre outros.
Nos dados recebidos não há campos do tipo texto e por isso não apresentamos o resultado da análise exploratória univariada para este tipo de dado.